多智能体增强学习(Marl)为涉及多个交互代理的问题提供了一个框架。尽管与单智能案例明显相似,但多种子体问题通常仍然努力培训和分析。在这项工作中,我们提出了一种新的策略演员 - 批评算法,它将V-Trace扩展到Marl设置。我们的算法的关键优势是它在多工人设置中的高可扩展性。为此,MA-Trace利用重要的采样作为脱策校正方法,这允许分配计算,没有影响培训质量。此外,我们的算法理论上是接地 - 我们证明了一种保证收敛的定期定理。我们在星际争霸多智能课程中广泛评估算法,是多智能代理算法的标准基准。Ma-Trace在所有任务中实现了高性能,并超过了最先进的结果。
translated by 谷歌翻译